我们研究了改进的多臂匪徒(IMAB)问题,其中从手臂获得的奖励随着收到的拉力数量而增加。该模型为教育和就业等领域中的许多现实世界问题提供了优雅的抽象,在这种领域中,关于机会分配的决定可能会影响社区的未来能力以及它们之间的差异。在这种情况下,决策者必须考虑她的决策对未来奖励的影响,除了随时最大化其累积奖励的标准目标。在许多这些应用中,决策者的时间范围未知,这激发了在技术上更具挑战性的地平线环境中对IMAB问题的研究。我们研究了地平线 - 统一环境中两个看似相互冲突的目标之间产生的紧张:a)根据武器的当前奖励,在任何时候最大化累积奖励,b)确保具有更好的长期奖励的武器获得足够的机会即使他们最初的奖励很低。我们表明,令人惊讶的是,在这种情况下,这两个目标是相互对齐的。我们的主要贡献是对IMAB问题的任何时间算法,它可以获得最佳的累积奖励,同时确保武器在足够的时间内发挥其真正的潜力。由于缺乏机会,我们的算法减轻了最初的差异,并继续拉动手臂直到停止改善。我们通过证明a)imab问题的任何算法来证明我们的算法的最佳性,无论其功利主义,无论多么有效,都必须遭受$ \ omega(t)$政策后悔和$ \ omega(k)$竞争比率相对于最佳的比例离线政策和b)我们算法的竞争比率为$ O(k)$。
translated by 谷歌翻译
人类已经依靠机器将过多的信息减少到可管理的表示形式。但是可以滥用这种依赖 - 战略机器可能会制定操纵用户的表示。用户如何根据战略表示做出很好的选择?我们将其正式化为学习问题,并追求算法来进行操纵。在我们关注的主要环境中,系统将项目的属性表示给用户,后者决定是否消耗。我们通过战略分类的镜头(Hardt等人,2016年)对这种相互作用进行建模,逆转:学习,首先播放的用户;响应的系统排名第二。该系统必须以揭示“除了真理”但不必揭示整个真理的表示形式做出响应。因此,用户在战略子集选择下面临学习设置功能的问题,该选项提出了不同的算法和统计挑战。我们的主要结果是一种学习算法,尽管具有战略代表性,该算法可以最大程度地减少错误,而我们的理论分析阐明了学习工作和操纵易感性之间的权衡。
translated by 谷歌翻译
我们重新审视了Chierichetti等人首先引入的公平聚类问题,该问题要求每个受保护的属性在每个集群中具有近似平等的表示。即,余额财产。现有的公平聚类解决方案要么是不可扩展的,要么无法在聚类目标和公平之间实现最佳权衡。在本文中,我们提出了一种新的公平概念,我们称之为$ tau $ $ $ - fair公平,严格概括了余额财产,并实现了良好的效率与公平折衷。此外,我们表明,简单的基于贪婪的圆形算法有效地实现了这一权衡。在更一般的多价受保护属性的设置下,我们严格地分析了算法的理论特性。我们的实验结果表明,所提出的解决方案的表现优于所有最新算法,即使对于大量簇,也可以很好地工作。
translated by 谷歌翻译
Reinforcement Learning (RL) algorithms are known to scale poorly to environments with many available actions, requiring numerous samples to learn an optimal policy. The traditional approach of considering the same fixed action space in every possible state implies that the agent must understand, while also learning to maximize its reward, to ignore irrelevant actions such as $\textit{inapplicable actions}$ (i.e. actions that have no effect on the environment when performed in a given state). Knowing this information can help reduce the sample complexity of RL algorithms by masking the inapplicable actions from the policy distribution to only explore actions relevant to finding an optimal policy. This is typically done in an ad-hoc manner with hand-crafted domain logic added to the RL algorithm. In this paper, we propose a more systematic approach to introduce this knowledge into the algorithm. We (i) standardize the way knowledge can be manually specified to the agent; and (ii) present a new framework to autonomously learn these state-dependent action constraints jointly with the policy. We show experimentally that learning inapplicable actions greatly improves the sample efficiency of the algorithm by providing a reliable signal to mask out irrelevant actions. Moreover, we demonstrate that thanks to the transferability of the knowledge acquired, it can be reused in other tasks to make the learning process more efficient.
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
姿势图优化是同时定位和映射问题的一种特殊情况,其中唯一要估计的变量是姿势变量,而唯一的测量值是施加间约束。绝大多数PGO技术都是基于顶点的(变量是机器人姿势),但是最近的工作以相对方式参数化了姿势图优化问题(变量是姿势之间的变换),利用最小循环基础来最大程度地提高范围的稀疏性。问题。我们以增量方式探索周期基础的构建,同时最大程度地提高稀疏性。我们验证一种算法,该算法逐渐构建稀疏循环基础,并将其性能与最小循环基础进行比较。此外,我们提出了一种算法,以近似两个图表的最小周期基础,这些图在多代理方案中常见。最后,姿势图优化的相对参数化仅限于使用SE(2)或SE(3)上的刚体变换作为姿势之间的约束。我们引入了一种方法,以允许在相对姿势图优化问题中使用低度测量值。我们对标准基准,模拟数据集和自定义硬件的算法进行了广泛的验证。
translated by 谷歌翻译
本文的重点是概念证明,机器学习(ML)管道,该管道从低功率边缘设备上获取的压力传感器数据中提取心率。 ML管道包括一个UPS采样器神经网络,信号质量分类器以及优化的1D横向扭转神经网络,以高效且准确的心率估计。这些型号的设计使管道小于40 kb。此外,开发了由UPS采样器和分类器组成的杂种管道,然后开发了峰值检测算法。管道部署在ESP32边缘设备上,并针对信号处理进行基准测试,以确定能量使用和推理时间。结果表明,与传统算法相比,提出的ML和杂种管道将能量和时间减少82%和28%。 ML管道的主要权衡是准确性,平均绝对误差(MAE)为3.28,而混合动力车和信号处理管道为2.39和1.17。因此,ML模型显示出在能源和计算约束设备中部署的希望。此外,ML管道的较低采样率和计算要求可以使自定义硬件解决方案降低可穿戴设备的成本和能源需求。
translated by 谷歌翻译
神经塌陷是指表征类嵌入和分类器重量的几何形状的显着结构特性,当经过零训练误差以外的训练时,深网被发现。但是,这种表征仅适用于平衡数据。因此,我们在这里询问是否可以使阶级失衡不变。为此,我们采用了不受限制的功能模型(UFM),这是一种用于研究神经塌陷的最新理论模型,并引入了单纯形编码标签的插值(SELI)作为神经崩溃现象的不变特征。具体而言,我们证明了UFM的跨凝结损失和消失的正则化,无论阶级失衡如何,嵌入和分类器总是插入单纯形编码的标签矩阵,并且其单个几何形状都由同一标签矩阵矩阵矩阵的SVD因子确定。然后,我们对合成和真实数据集进行了广泛的实验,这些实验确认了与SELI几何形状的收敛。但是,我们警告说,融合会随着不平衡的增加而恶化。从理论上讲,我们通过表明与平衡的情况不同,当存在少数民族时,山脊规范化在调整几何形状中起着至关重要的作用。这定义了新的问题,并激发了对阶级失衡对一阶方法融合其渐近优先解决方案的速率的影响的进一步研究。
translated by 谷歌翻译
数据驱动的机器学习方法有可能显着加速材料设计的速率,而不是传统的人类指导方法。这些方法将有助于识别或在生成模型的情况下,甚至可以创建具有一组指定功能特性的新型材料结构,然后在实验室中合成或隔离。对于晶体结构的产生,关键的瓶颈在于为机器学习模型开发合适的原子结构指纹或表示,类似于分子生成中使用的基于图或微笑的表示。但是,找到对翻译,旋转和排列不变的数据有效表示,而笛卡尔原子坐标仍然是可逆的,仍然是一个持续的挑战。在这里,我们通过采用具有所需的不变的现有的不可糊化表示并开发算法来通过使用自动分化的基于梯度的优化来重建原子坐标,从而提出了一种替代方法。然后,可以将其与生成机器学习模型耦合,该模型在表示空间内生成新材料,而不是在数据范围内的笛卡尔空间中生成新材料。在这项工作中,我们使用以原子为中心的对称函数来实现这种端到端的结构生成方法,作为表示和条件变化自动编码器作为生成模型。我们能够成功地生成亚纳米PT纳米颗粒的新颖和有效的原子结构,作为概念证明。此外,该方法可以很容易地扩展到任何合适的结构表示形式,从而为基于结构的生成提供了强大的,可推广的框架。
translated by 谷歌翻译
基于单眼的道路检测方法主要基于机器学习方法,依靠分类和提取精度以及外观,照明和天气变化。传统方法将预测引入条件随机字段或马尔可夫随机场模型中,以改善基于结构的中间预测。这些方法是基于优化的,因此资源很重且缓慢,使其不适合实时应用。我们提出了一种方法,可以通过具有基于超级像素的机器学习功能的本地专家的随机森林分类器来检测和细分道路。随机森林从预先训练的卷积神经网络-VGG-16中吸入机器学习的描述符。这些功能还集中在各自的超级像素中,从而使本地结构保持连续。我们将算法与基于Nueral网络的方法和传统方法(基于手工制作的功能)进行了比较,在结构化的道路(Camvid和Kitti)和非结构化的道路数据集上进行了比较。最后,我们介绍了一个带有1000个带注释的图像的道路场景数据集,并验证我们的算法在非城市和农村道路方案中效果很好。
translated by 谷歌翻译